[Day5].用Selenium自動化爬圖片

第 11 屆 iThome 鐵人賽

DAY 5

自我挑戰組

自動化技術在生活與工作上的應用系列第 5 篇

11th鐵人賽

Kyle

2019-09-08 14:16:11

2465 瀏覽

分享至

其實爬蟲超多人寫的，且ptt的爬蟲資源也很多

google一下就一堆大神們，甚至更客製化

所以我明天應該會做個番外篇 !! 畢竟我也不是蟲王，能將爬蟲發揮到效能、速度、跟突破各種反爬蟲的網頁的境界

回歸正題，今日終於要爬圖片了

圖片的重點就在於我們要找到"<img" 的標籤並將他加上副檔名".png"

讓他成為一個圖檔能儲存在我們本機端

但ptt都是用imgur格式來存，所以必須要做以下幾個步驟
找到所有文章列表的文章內容
抓出文章內 imgur 相關的 url
透過正則表示式 (Regular Expression) 指定字串的格式。能辨識出屬於該格式的正規表示式為:
'^https?://(i.)?(m.)?imgur.com'
所以只要滿足這規則即可找到所有圖片存在的方式

圖片跟連結通常都在標籤<a下面以href的屬性方式存在著
if d.find('a'): # 有超連結，表示文章存在，未被刪除
href = d.find('a')['href']
title = d.find('a').string
articles.append({
'title': title,
'href': href})

外傳: 最近看到react-native 的TINDER 蠻有趣的
可以順便把爬下來的圖片做進一步的範例學習

所以可能會外插個與自動化無關的內容